2025년 9월 19일한국어

Python Pandas 피벗 테이블로 데이터 재구성을 마스터하세요. 글로벌 데이터 분석을 위한 구문, 고급 기술 및 실용적인 예제에 대한 심층적인 탐구.

Python Pandas 피벗 테이블: 데이터 재구성의 종합 가이드

데이터 분석의 세계에서 데이터를 요약하고, 집계하며, 재구성하는 능력은 단순한 기술이 아닌 초능력과 같습니다. 원시 데이터는 본래의 형태로 방대하고 상세한 장부와 유사합니다. 정보는 풍부하지만 해석하기는 어렵습니다. 의미 있는 통찰력을 추출하려면 이 장부를 간결한 요약으로 변환해야 합니다. 바로 이 지점에서 피벗 테이블이 탁월하며, Python 프로그래머에게 Pandas 라이브러리는 강력하고 유연한 도구인 pivot_table()을 제공합니다.

이 가이드는 전 세계 데이터 분석가, 과학자 및 Python 애호가를 위해 고안되었습니다. 우리는 Pandas 피벗 테이블의 메커니즘을 심층적으로 탐구하며, 기본 개념부터 고급 기술까지 다룰 것입니다. 다양한 대륙의 판매 수치를 요약하든, 지역별 기후 데이터를 분석하든, 분산된 팀의 프로젝트 지표를 추적하든, 피벗 테이블을 마스터하는 것은 데이터 탐색 방식에 근본적인 변화를 가져올 것입니다.

피벗 테이블이란 정확히 무엇인가요?

Microsoft Excel 또는 Google Sheets와 같은 스프레드시트 소프트웨어를 사용해 본 적이 있다면 피벗 테이블의 개념에 익숙할 것입니다. 피벗 테이블은 더 큰 데이터 세트에서 선택한 열과 행의 데이터를 재구성하고 요약하여 원하는 보고서를 얻을 수 있게 해주는 대화형 테이블입니다.

피벗 테이블은 두 가지 주요 기능을 수행합니다:

집계 (Aggregation): 하나 이상의 범주로 그룹화된 수치 데이터에 대해 요약 통계(예: 합계, 평균, 개수)를 계산합니다.
재구성 (Reshaping): 데이터를 '긴(long)' 형식에서 '넓은(wide)' 형식으로 변환합니다. 모든 값을 단일 열에 가지는 대신, 열의 고유 값을 출력의 새 열로 '피벗'합니다.

Pandas의 pivot_table() 함수는 이 강력한 기능을 Python 데이터 분석 워크플로에 직접 가져와 재현 가능하고, 스크립트 작성 가능하며, 확장 가능한 데이터 재구성을 가능하게 합니다.

환경 및 샘플 데이터 설정

시작하기 전에 Pandas 라이브러리가 설치되어 있는지 확인하세요. 설치되어 있지 않다면 Python의 패키지 설치 관리자인 pip를 사용하여 설치할 수 있습니다:

pip install pandas

이제 Python 스크립트 또는 노트북에서 가져와 보겠습니다:

import pandas as pd import numpy as np

글로벌 판매 데이터셋 생성

예제를 실용적이고 글로벌하게 만들기 위해, 다국적 전자상거래 회사의 판매 데이터를 나타내는 가상의 데이터셋을 생성할 것입니다. 이 데이터셋에는 다양한 지역, 국가 및 제품 범주의 판매 정보가 포함됩니다.

            
# Create a dictionary of data
data = {
    'TransactionID': range(1, 21),
    'Date': pd.to_datetime([
        '2023-01-15', '2023-01-16', '2023-01-17', '2023-02-10', '2023-02-11',
        '2023-02-12', '2023-03-05', '2023-03-06', '2023-03-07', '2023-01-20',
        '2023-01-21', '2023-02-15', '2023-02-16', '2023-03-10', '2023-03-11',
        '2023-01-18', '2023-02-20', '2023-03-22', '2023-01-25', '2023-02-28'
    ]),
    'Region': [
        'North America', 'Europe', 'Asia', 'North America', 'Europe', 'Asia', 'North America', 'Europe', 'Asia', 'Europe',
        'Asia', 'North America', 'Europe', 'Asia', 'North America', 'Asia', 'Europe', 'North America', 'Europe', 'Asia'
    ],
    'Country': [
        'USA', 'Germany', 'Japan', 'Canada', 'France', 'India', 'USA', 'UK', 'China', 'Germany',
        'Japan', 'USA', 'France', 'India', 'Canada', 'China', 'UK', 'USA', 'Germany', 'India'
    ],
    'Product_Category': [
        'Electronics', 'Apparel', 'Electronics', 'Books', 'Apparel', 'Electronics', 'Books', 'Electronics', 'Apparel',
        'Apparel', 'Books', 'Electronics', 'Books', 'Apparel', 'Electronics', 'Books', 'Apparel', 'Books', 'Electronics', 'Electronics'
    ],
    'Units_Sold': [10, 5, 8, 20, 7, 12, 15, 9, 25, 6, 30, 11, 18, 22, 14, 28, 4, 16, 13, 10],
    'Unit_Price': [1200, 50, 900, 15, 60, 1100, 18, 950, 45, 55, 12, 1300, 20, 40, 1250, 14, 65, 16, 1150, 1050]
}

# Create DataFrame
df = pd.DataFrame(data)

# Calculate Revenue
df['Revenue'] = df['Units_Sold'] * df['Unit_Price']

# Display the first few rows of the DataFrame
print(df.head())

이 데이터셋은 범주형 데이터(Region, Country, Product_Category), 수치형 데이터(Units_Sold, Revenue) 및 시계열 데이터(Date)가 혼합된 견고한 기반을 제공합니다.

`pivot_table()`의 구조

Pandas의 pivot_table() 함수는 매우 다재다능합니다. 가장 중요한 매개변수를 살펴보겠습니다:

pandas.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, margins_name='All')

data: 피벗할 DataFrame입니다.
values: 집계할 데이터를 포함하는 열(들)입니다. 지정하지 않으면 나머지 모든 숫자 열이 사용됩니다.
index: 고유 값이 새 피벗 테이블의 행을 구성할 열(들)입니다. 이를 '그룹화 키(grouping key)'라고도 합니다.
columns: 고유 값이 새 테이블의 열로 '피벗'될 열(들)입니다.
aggfunc: 'values'에 적용할 집계 함수입니다. 'sum', 'mean', 'count', 'min', 'max'와 같은 문자열 또는 np.sum과 같은 함수일 수 있습니다. 여러 함수 목록이나 다른 열에 다른 함수를 적용하기 위한 사전을 전달할 수도 있습니다. 기본값은 'mean'입니다.
fill_value: 피벗 테이블에서 누락된 결과(NaN)를 대체할 값입니다.
margins: 부울 값입니다. True로 설정하면 행과 열에 소계(총합계라고도 함)를 추가합니다.
margins_name: margins=True일 때 총계를 포함하는 행/열의 이름입니다. 기본값은 'All'입니다.

첫 번째 피벗 테이블: 간단한 예제

일반적인 비즈니스 질문부터 시작하겠습니다: "각 제품 범주별로 생성된 총 수익은 얼마입니까?"

이에 답하기 위해서는 다음이 필요합니다:

행에 Product_Category를 사용합니다 (index).
Revenue 열을 집계합니다 (values).
집계 함수로 합계를 사용합니다 (aggfunc).

            
# Simple pivot table to see total revenue by product category
category_revenue = pd.pivot_table(df, 
                                  values='Revenue', 
                                  index='Product_Category', 
                                  aggfunc='sum')

print(category_revenue)

출력:

                  Revenue
Product_Category         
Apparel             1645
Books               1184
Electronics        56850

즉시 명확하고 간결한 요약을 얻을 수 있습니다. 20행의 원시 거래 로그가 질문에 직접 답하는 3행 테이블로 재구성되었습니다. 이것이 피벗 테이블의 근본적인 힘입니다.

열 차원 추가

이제 이를 확장해 보겠습니다. 제품 범주별 총 수익을 보고 싶지만, 지역별로도 분류하고 싶다면 어떨까요? 이때 columns 매개변수가 작동합니다.

            
# Pivot table with index and columns
revenue_by_category_region = pd.pivot_table(df, 
                                            values='Revenue', 
                                            index='Product_Category', 
                                            columns='Region', 
                                            aggfunc='sum')

print(revenue_by_category_region)

출력:

Region              Asia  Europe  North America
Product_Category                               
Apparel           1125.0   625.0            NaN
Books              336.0   360.0          488.0
Electronics      13200.0  14550.0        29100.0

이 출력은 훨씬 더 풍부합니다. 'Region' 열('Asia', 'Europe', 'North America')의 고유 값을 새 열로 피벗했습니다. 이제 다양한 제품 범주가 지역별로 어떻게 성과를 내는지 쉽게 비교할 수 있습니다. NaN(Not a Number) 값도 보입니다. 이는 데이터셋에서 '북미' 지역에 대한 '의류' 판매가 기록되지 않았음을 나타냅니다. 이것 자체로도 귀중한 정보입니다!

고급 피벗 기술

기본 기능도 강력하지만, pivot_table()의 진정한 유연성은 고급 기능에서 드러납니다.

`fill_value`를 사용한 결측값 처리

이전 테이블의 NaN은 정확하지만, 보고서 작성이나 추가 계산을 위해 0으로 표시하는 것이 더 바람직할 수 있습니다. fill_value 매개변수는 이를 쉽게 해줍니다.

            
# Using fill_value to replace NaN with 0
revenue_by_category_region_filled = pd.pivot_table(df, 
                                                     values='Revenue', 
                                                     index='Product_Category', 
                                                     columns='Region', 
                                                     aggfunc='sum', 
                                                     fill_value=0)

print(revenue_by_category_region_filled)

출력:

Region              Asia  Europe  North America
Product_Category                               
Apparel             1125     625              0
Books                336     360            488
Electronics        13200   14550          29100

이제 테이블이 더 깔끔해졌고, 특히 비전문가에게 더 읽기 쉬워졌습니다.

다중 인덱스(계층적 인덱싱) 사용

행에 두 개 이상의 범주로 그룹화해야 한다면 어떨까요? 예를 들어, Region별로 판매를 분류한 다음 각 지역 내에서 Country별로 분류해 보겠습니다. index 매개변수에 열 목록을 전달할 수 있습니다.

            
# Multi-level pivot table using a list for the index
multi_index_pivot = pd.pivot_table(df, 
                                   values='Revenue', 
                                   index=['Region', 'Country'],
                                   aggfunc='sum',
                                   fill_value=0)

print(multi_index_pivot)

출력:

                     Revenue
Region        Country         
Asia          China        488
              India       1760
              Japan      10860
Europe        France      1020
              Germany    14440
              UK          1115
North America Canada      17800
              USA        12058

Pandas는 행에 자동으로 MultiIndex를 생성했습니다. 이 계층적 구조는 데이터를 자세히 살펴보고 중첩된 관계를 파악하는 데 환상적입니다. 동일한 논리를 columns 매개변수에 적용하여 계층적 열을 생성할 수 있습니다.

여러 집계 함수 사용

때로는 하나의 요약 통계만으로는 충분하지 않을 수 있습니다. 각 그룹에 대해 총 수익(합계)과 평균 거래 규모(평균)를 모두 보고 싶을 수 있습니다. aggfunc에 함수 목록을 전달할 수 있습니다.

            
# Using multiple aggregation functions
multi_agg_pivot = pd.pivot_table(df, 
                                 values='Revenue', 
                                 index='Region', 
                                 aggfunc=['sum', 'mean', 'count'])

print(multi_agg_pivot)

출력:

                     sum          mean  count
                 Revenue       Revenue Revenue
Region                                      
Asia          13108.000000   2184.666667       6
Europe        16575.000000   2762.500000       6
North America 29858.000000   4976.333333       6

이 단일 명령은 각 지역별 총 수익, 거래당 평균 수익, 거래 횟수를 포함하는 포괄적인 요약을 제공합니다. Pandas가 출력을 체계적으로 정리하기 위해 계층적 열을 생성하는 방식에 주목하세요.

다른 값에 다른 함수 적용

더 세분화된 작업을 수행할 수 있습니다. Revenue의 합계와 Units_Sold의 평균을 보고 싶다고 상상해 보세요. aggfunc에 사전(dictionary)을 전달할 수 있으며, 키는 열 이름('values')이고 값은 원하는 집계 함수입니다.

            
# Different aggregations for different values
dict_agg_pivot = pd.pivot_table(df, 
                                index='Region', 
                                values=['Revenue', 'Units_Sold'],
                                aggfunc={
                                    'Revenue': 'sum',
                                    'Units_Sold': 'mean'
                                },
                                fill_value=0)

print(dict_agg_pivot)

출력:

               Revenue  Units_Sold
Region                            
Asia             13108   17.833333
Europe           16575    8.166667
North America    29858   14.333333

이러한 제어 수준이 pivot_table()을 정교한 데이터 분석을 위한 최고의 도구로 만듭니다.

`margins`를 사용한 총합계 계산

보고 목적을 위해 행 및 열 총계는 종종 필수적입니다. margins=True 인수는 추가적인 노력 없이 이를 제공합니다.

            
# Adding totals with margins=True
revenue_with_margins = pd.pivot_table(df, 
                                      values='Revenue', 
                                      index='Product_Category', 
                                      columns='Region', 
                                      aggfunc='sum', 
                                      fill_value=0,
                                      margins=True,
                                      margins_name='Grand Total') # Custom name for totals

print(revenue_with_margins)

출력:

Region              Asia  Europe  North America  Grand Total
Product_Category                                            
Apparel             1125     625              0         1750
Books                336     360            488         1184
Electronics        13200   14550          29100        56850
Grand Total        14661   15535          29588        59784

Pandas는 각 행(모든 지역에 걸친 제품 범주별 총 수익)과 각 열(모든 범주에 걸친 지역별 총 수익)에 대한 합계를 자동으로 계산하며, 오른쪽 하단에는 모든 데이터에 대한 총합계를 제공합니다.

실용적인 사용 사례: 시간 기반 분석

피벗 테이블은 정적 범주에만 국한되지 않습니다. 시계열 데이터를 분석하는 데 매우 유용합니다. 각 월별 총 수익을 찾아보겠습니다.

먼저, 'Date' 열에서 월을 추출해야 합니다. 이를 위해 Pandas의 .dt 접근자를 사용할 수 있습니다.

            
# Extract month from the Date column
df['Month'] = df['Date'].dt.month_name()

# Pivot to see monthly revenue by product category
monthly_revenue = pd.pivot_table(df,
                                 values='Revenue',
                                 index='Month',
                                 columns='Product_Category',
                                 aggfunc='sum',
                                 fill_value=0)

# Optional: Order the months correctly
month_order = ['January', 'February', 'March']
monthly_revenue = monthly_revenue.reindex(month_order)

print(monthly_revenue)

출력:

Product_Category  Apparel  Books  Electronics
Month                                        
January               250    360        23100
February              795    794        24250
March                 705     30         9500

이 테이블은 시간 경과에 따른 각 범주의 판매 실적을 명확하게 보여주어, 추세, 계절성 또는 이상 징후를 쉽게 발견할 수 있게 해줍니다.

`pivot_table()` 대 `groupby()`: 차이점은 무엇인가요?

이는 Pandas를 배우는 사람들에게 흔한 질문입니다. 두 함수는 밀접하게 관련되어 있으며, 사실 pivot_table()은 groupby() 위에 구축되었습니다.

groupby()는 더 일반적이고 근본적인 연산입니다. 특정 기준에 따라 데이터를 그룹화한 다음 집계 함수를 적용할 수 있습니다. 결과는 일반적으로 계층적 인덱스를 가진 Pandas Series 또는 DataFrame이지만, '긴(long)' 형식으로 유지됩니다.
pivot_table()은 그룹화를 수행한 다음 데이터를 재구성하는 특수 도구입니다. 주된 목적은 데이터를 긴 형식에서 넓은 형식으로 변환하는 것으로, 이는 종종 사람이 더 읽기 쉽습니다.

groupby()를 사용하여 첫 번째 예제를 다시 살펴보겠습니다:

            
# Same result as our first pivot table, but using groupby
category_revenue_groupby = df.groupby('Product_Category')['Revenue'].sum()

print(category_revenue_groupby)

결과는 첫 번째 피벗 테이블의 DataFrame과 기능적으로 동일한 Pandas Series입니다. 그러나 두 번째 그룹화 키(예: 'Region')를 도입하면 차이점이 명확해집니다.

            
# Grouping by two columns
groupby_multi = df.groupby(['Product_Category', 'Region'])['Revenue'].sum()

print(groupby_multi)

출력 (MultiIndex를 가진 Series):

Product_Category  Region       
Apparel           Asia              1125
                  Europe             625
Books             Asia               336
                  Europe             360
                  North America      488
Electronics       Asia             13200
                  Europe           14550
                  North America    29100
Name: Revenue, dtype: int64

pivot_table(index='Product_Category', columns='Region')와 동일한 '넓은(wide)' 형식을 얻으려면 groupby() 다음에 unstack()을 사용해야 합니다:

            
# Replicating a pivot table with groupby().unstack()
groupby_unstack = df.groupby(['Product_Category', 'Region'])['Revenue'].sum().unstack(fill_value=0)

print(groupby_unstack)

이는 열이 있는 피벗 테이블과 정확히 동일한 출력을 생성합니다. 따라서 pivot_table()을 일반적인 groupby().aggregate().unstack() 워크플로에 대한 편리한 단축키로 생각할 수 있습니다.

언제 어떤 것을 사용해야 할까요?

pivot_table()은 특히 보고서 작성이나 교차표(crosstabs)를 만들 때 사람이 읽기 쉬운 넓은 형식의 출력을 원할 때 사용합니다.
groupby()는 더 많은 유연성이 필요하거나, 데이터 처리 파이프라인에서 중간 계산을 수행하거나, 재구성된 넓은 형식이 최종 목표가 아닐 때 사용합니다.

성능 및 모범 사례

pivot_table()이 강력하지만, 특히 대규모 데이터셋에서는 효율적으로 사용하는 것이 중요합니다.

먼저 필터링, 나중에 피벗: 데이터의 하위 집합(예: 작년 판매량)만 분석해야 하는 경우, 피벗 테이블을 적용하기 전에 DataFrame을 필터링합니다. 이렇게 하면 함수가 처리해야 하는 데이터 양이 줄어듭니다.
범주형 타입 사용: 피벗 테이블에서 인덱스 또는 열로 자주 사용하는 열(예: 'Region' 또는 'Product_Category')의 경우, Pandas의 'category' dtype으로 변환하세요. 이렇게 하면 메모리 사용량을 크게 줄이고 그룹화 작업 속도를 높일 수 있습니다.
df['Region'] = df['Region'].astype('category')
가독성 유지: 너무 많은 인덱스와 열을 가진 피벗 테이블 생성을 피하세요. 가능하긴 하지만, 수백 개의 열과 수천 개의 행을 가진 피벗 테이블은 원래의 원시 데이터만큼 읽기 어려워질 수 있습니다. 특정 목적에 맞는 요약을 만드는 데 사용하세요.
집계 이해: aggfunc 선택에 유의하세요. 가격에 'sum'을 사용하는 것은 의미가 없으며, 'mean'이 더 적절할 수 있습니다. 항상 집계가 답변하려는 질문과 일치하는지 확인하세요.

결론: 통찰력 있는 요약을 위한 도구

Pandas의 pivot_table() 함수는 모든 데이터 분석가의 도구 키트에 필수적인 도구입니다. 지저분하고 상세한 데이터에서 깔끔하고 통찰력 있는 요약으로 이동하는 선언적이고 표현력이 풍부하며 강력한 방법을 제공합니다. values, index, columns, aggfunc와 같은 핵심 구성 요소를 이해하고 마스터하며, 다단계 인덱싱, 사용자 정의 집계 및 여백과 같은 고급 기능을 활용함으로써 몇 줄의 Python 코드로 복잡한 비즈니스 질문에 답하도록 데이터를 재구성할 수 있습니다.

다음 번에 대규모 데이터셋에 직면했을 때, 끝없는 행을 스크롤하려는 충동을 참으세요. 대신, 답변해야 할 질문과 피벗 테이블이 데이터를 어떻게 재구성하여 숨겨진 이야기를 드러낼 수 있는지 생각해 보세요. 즐거운 피벗팅 되세요!

Python Pandas 피벗 테이블: 데이터 재구성의 종합 가이드

피벗 테이블이란 정확히 무엇인가요?

환경 및 샘플 데이터 설정

글로벌 판매 데이터셋 생성

pivot_table()의 구조

첫 번째 피벗 테이블: 간단한 예제

열 차원 추가

고급 피벗 기술

fill_value를 사용한 결측값 처리

다중 인덱스(계층적 인덱싱) 사용

여러 집계 함수 사용

다른 값에 다른 함수 적용

margins를 사용한 총합계 계산

실용적인 사용 사례: 시간 기반 분석

pivot_table() 대 groupby(): 차이점은 무엇인가요?

성능 및 모범 사례

결론: 통찰력 있는 요약을 위한 도구

`pivot_table()`의 구조

`fill_value`를 사용한 결측값 처리

`margins`를 사용한 총합계 계산

`pivot_table()` 대 `groupby()`: 차이점은 무엇인가요?